Population and Sample
定义
总体(Population)是一组随机变量(Random Variable),可以理解为一种数据生成过程(Data Generating Process)。
在回归分析中,总体一般记作
样本(Sample)既可以在理论分析中(事前)看作一组随机变量,也可以在统计分析中(事后)看作一个数据集(Dataset)。
一般地,样本可以记作
常见地,样本可以记作
注意区别,
包含观测值 的所有自变量,为 列向量; 包含自变量 的所有观测值,为 列向量。
样本往往被假设为是独立同分布的(independent and identically distributed,i.i.d),即如果
违背独立同分布假设的情形:
- spatial
- time-series
- network
- clustered
统计推断
称随机变量
称随机变量
给定一个总体,假定结构方程描述了变量之间的因果关系,因此需要构造总体统计量识别(identificate)结构方程的参数(parameter);由于总体是不可观测的,需要进一步构造样本统计量推断(infer)总体统计量。
其中,用于识别参数的总体统计量称为 estimand;用于推断总体统计量的样本统计量称为估计量(estimator),再根据数据计算得到估计值(estimate)。
“Econometric identification really means just one thing: model parameters or features being uniquely determined from the observable population that generates the data” -Lewbel (2019)